王燃:大数据证据应用的理论评析 | 年会发言纪实
编者按
今天的报告从这三个角度展开:
一个是大数据证据的研究概览,主要对中外该主题的研究做一个大概的梳理。第二部分介绍大数据证据在司法实践中的应用。第三部分探讨大数据证据相关的法律问题。
第一部分:大数据证据的研究概览。
关于大数据证据的研究,我根据中国知网上检索,包括这几年的学术观察,目前相关论文已经很多了(PPT列出了一些比较比较有代表性的一些论文,大家可以浏览一下)。第一篇对大数据证据进行系统研究的是大家都非常熟悉的刘品新老师,他在2019年的时候就发表了《论大数据证据》,对大数据证据它的形式、概念及“三性”都有着非常系统研究。这篇论文目前为止仍然是大数据证据领域下载量以及引用量最高的一篇论文。另外还有林喜芬老师、郑飞老师等,都对大数据证据做过比较系统的研究。另外近一两年,很多学者对大数据证据做了更细化的研究,比如探讨它的证明力规则、质证规则等。综上所述,我认为我国学者对大数据证据的研究,主要在证据形式及证据三性上所展开。
在域外,我关注的比较多的是美国关于大数据证据的研究。首先,他们更倾向于使用“机器证据”(machine-generated evidence)这样一个概念。在域外研究中,主要探讨传统基于“人证”的证据规则,在数据时代、人工智能时代如何进行调整。
第二部分:大数据在司法实践中的应用。
我们在进行理论研究的时候,会发现很难去系统收集大数据证据相关案例。我们有一位同学,运用“大数据证据报告”“百度指数”“大数据数据库”等多项关键词,检索到大数据证据相关的98个案例。根据这些案例,总结大数据证据以下特征:
1 大数据证据的形式:我国的司法实践当中主要还是一种转换运用的形式,包括电子数据、鉴定意见及书证。
2 大数据证据的证明对象:我们总结有这三类,一是行动轨迹类,主要是以一些公安大数据为主,比如说PPT这个案件中是从卡口数据去查询车辆的相关信息。二是身份识别类,这一类数据往往也是在公安的数据系统进行查询,比如说基本的人口信息,、人脸识别信息等。三是舆情指数类,一些大的互联网平台会发布某个热点关键词、事物的相关指数。
3 大数据证据的技术标准:我们也是分为三类,一是查询类,主要是在一些数据库中去查询,包括公共机构数据库,也包括一些企业的数据库。二是评估类,比如说像百度指数、谷歌指数就是对某一个热点进行的大数据评估。三是监控的,比如说一些大型平台或机构会设置大数据风控机制,由此来发现异常行为。
4 另外我们还从时间上做了一个分类,包括面向过去和面向未来。这里重点讨论面向未来的大数据证据。在案例研究中也发现,会将当事人履约能力、信用评分等作为证据。类似于信用评分这样的形式,其实是一个指向未来的这样的预测性的证据。
另外,我们关注到在美国司法实践中,大数据证据运用较多的领域是混合DNA检测。即面对同一生物证据中存在着两个或更多人DNA混合物,人类经验则束手无策。以TrueAllele为代表的技术公司, 通过专业的算法模型对混合DNA中的海量数据分析,进行人身同一认定,并由此确定刑事案件真凶。此外,人脸数据、指纹数据、文本数据等分析技术都在推动传统经验型人身同一认定,走向数据驱动的人身同一认定。
另外在大数据证据美国比较多的一个应用,就是人身危险性评估。对于该主题,很多学者已经非常熟悉了。目前,美国自动化人身危险性评估工具已经经过了四代的发展,在联邦直辖特区及50个州得到了广泛普及和应用,多集中在第三代和第四代,评估工具种类多达60余种。各类型评估工具所采纳的变量存在差别,但目前应用较广泛的系统中通常考虑“中心八项”的风险因素变量:反社会态度、反社会关系、反社会人格、犯罪历史、药物滥用、家庭特征、教育就业、亲社会娱乐的缺失,每一项又通过若干具体问题考察。替代制裁的罪犯矫治管理画像(COMPAS)、审前安全评估(PSA)、水平服务清单(LSI-R)三种评估系统应用较为普遍。
第三部分:大数据证据相关的法律问题。
拟从数据、算法及程序方面展开大数据证据法律问题的探讨。
数据层面:可以归纳技术层面的数据错误及法律层面的数据错误。技术层面的数据错误,可以通过技术问题去解决,如数据清洗、去重等。法律层面的数据错误,主要在于如何识别虚假数据,如虚假的流量、点击数等,我们认为,一个可行的办法仍是借助算法来识别虚假数据。
算法层面:可重点关注算法适用场景是否匹配。如混合DNA分析算法中,面向特定人数开发的混合DNA测试模型,不能适用于多于特定人数的场景。例如在2019年的加州北部地区法院的美国诉威廉姆斯(United States v. Williams)一案中, 法官排除了一款名为BulletProof混合DNA分析软件的结果,原因就在于适用场景的不一致。BulletProof只能被用于检测最多四个来源者的DNA混合物,而本案中无法证明其DNA检材中仅有四个来源者。
此外,可重点关注算法中“替代性变量”(Proxy Variables)的运用。算法模型中,看似中立的变量可能是某类偏见的代名词。在大数据司法证明场景中,替代性变量往往体现为与目标对象无关的、甚至是法律禁止的变量,或者是以群体性变量来替代个体变量。
程序层面:在刑事诉讼中一个讨论的热点是算法开示与商业秘密保护之间的博弈。对此,可探索构建算法信息分级公开制度。基于商业秘密保护的考虑,不应强制要求企业主动公布全部信息,应当建立算法信息的分级披露制度,对于不同层次的算法信息采取不同的算法披露措施。按照算法信息的机密程度由低到高,自动化人身危险性评估系统的算法信息可以分为外部信息、数据信息和核心信息三个层次。此外,我国新近的算法评估、算法备案等制度也可进行相关借鉴。
以上就是我今天的分享内容,还请大家多多批评指正!